circRNA-seq:CIRCexplorer2 使用指南(一)
点击上方关注“公众号”
1什么是 cirRNA?
circRNAs (CircularRNAs,环形 RNA 分子) 是一类不具有 5‘ 末端帽子和 3’ 末端 poly(A)尾巴,由反向剪接形成(back splicing)、并以 共价键 形成环形结构的客观存在于生物体内的非编码 RNA 分子。
发现:
1976 年,在电子显微镜下观测到真核细胞的细胞质中存在环状 RNA 分子。 1993 年,在小鼠中发现其 Sry 基因存在环状转录。 2012 年,借助于高通量测序技术,circRNA 被大量发现。 2013 年,Nature 杂志同一期刊登两篇 circRNA 研究文章,自此 circRNA 相关研究快速增长,逐渐成为非编码 RNA 领域新的明星分子。 2014 年,circRNA 逐渐成为了 RNA 领域的研究热点,Arraystar 公司全球首推第一款商业化 circRNA 芯片。 2015 年,中国农业科学院植物保护研究所研究员李世访与中国科学技术大学吴清发教授合作,在世界上首次发现苹果中存在具有核酶活性的环状 RNA。 2017 年,德国科学家发现环状 RNA 与大脑功能存在关联。 2018 年,越来越多的研究证实环状 RNA 与癌症密切相关,有望成为癌症生物标记物
特点:
1、反向剪接形成,共价环状闭合,比线形 RNA 稳定,没有 polyA 尾巴。
2、大部分由父本基因的外显子环化形成。
3、具有两种反向可变剪接和正常的 mRNA 的 4 种可变剪接模式。
4、三种来源:circRNA 根据其来源可分为三类:1.外显子来源的 circRNA (exonic circRNAs) ,2.内含子来源的 circRNA (circular intronic RNAs) ,3.以及由外显子和内含子共同组成的 circRNA (retained-intron circRNAs)。
功能:
1、circRNA 竞争性吸附 miRNA。
2、circRNA 调节 RNA 结合蛋白(RBP)。
3、circRNAs 调控可变剪切或转录过程。
4、编码功能。
2circRNA-seq 分析软件
争对 circRNA-seq 的数据分析,目前已经开发出多种分析软件和 pipeline 来分析鉴定和注释 circRNA:
准确性:
灵敏度:
2017 年有一篇文章专门比较了这些工具的性能,结论是:
一般来说,CIRI、CIRCexplorer 和 KNIFE 在精度和灵敏度方面取得了更好的平衡,优于其他方法,而 NCLScan 和 MapSplice 是精度相当但灵敏度较差的保守方法。
今天介绍 CIRCexplorer 这款软件。
3CIRCexplorer2
CIRCexplorer 软件由中科院 陈玲玲 和 杨力 研究团队开发,该团队主要研究 circRNA 和 lncRNA 领域,也是该领域比较权威的专家。该团队还做了 CIRCpedia 这个数据库(https://www.picb.ac.cn/rnomics/circpedia/),专门用来注释 circRNA 反向可变剪接 和 可变剪接 的。
使用 CIRCexplorer2 鉴定出新的外显子和已知的 circRNA:
目前 CIRCexplorer 已经更新到 2 版本,相对于 1 版本有较大变动。我们接下来跟着指南进行学习和了解使用方法。
1、特点:
1:精确注释环状 RNA (Annotate)。 2:支持多种环状 RNA 比对软件(TopHat2/TopHat-Fusion、STAR、MapSplice、BWA 和 segemehl)(Align and Parse)。 4:从头组装新的环状 RNA 转录本(组装)。 5:表征环状 RNA 的各种可变(反向)剪接事件(Denovo)。 6:使用 STAR 或 BWA (Parse) 快速识别环状 RNA。 7:支持单读和双端测序。
2、需要的预安装的软件:
3、测序数据要求:
推荐使用 poly(A)-/ribo- RNA-seq
。如果你想富集环状 RNA,可以进行 RNase R
处理。仅去除 rRNA 的 RNA-seq 是可以接受的,但这不是最佳选择。
4、安装 CIRCexplorer2
# pip 安装
$ pip install circexplorer2
# conda 安装
$ conda install circexplorer2 --channel bioconda
# 源码安装最新版
$ git clone https://github.com/YangLab/CIRCexplorer2.git
$ cd CIRCexplorer2
$ pip install -r requirements.txt
# install scipy according to http://www.scipy.org/install.html
$ python setup.py install
5、准备文件
CIRCexplorer2 需要基因注释文件
和参考基因组序列文件
来注释环状 RNA。基因注释文件应为 Gene Predictions 和 RefSeq Genes with Gene Names 格式,参考基因组序列文件包含所有具有各自染色体 ID 的基因组序列。基因注释文件中的所有染色体 ID 都必须包含在参考基因组序列文件中,否则这两个文件之间的不一致可能会导致运行 CIRCexplorer2 时出现不可检测的错误。
注释文件格式:
作者还提供了一个脚本来下载,可以使用 fetch_ucsc.py
脚本下载所有必需的基因注释和参考基因组序列文件,用于环状 RNA 鉴定。
fetch_ucsc.py
是一个包含在 CIRCexplorer2 中的 Python 小脚本,用于帮助用户为 CIRCexplorer2 准备相关的东西。它可以下载和格式化基因注释文件(RefSeq、KnownGenes 或 Ensembl)和两个物种(人类:hg19、hg38;小鼠:mm9、mm10)的参考基因组序列文件。所有这些文件都将从最新版本的 UCSC 中获取。
使用方法:
$ fetch_ucsc.py hg19/hg38/mm9/mm10 ref/kg/ens/fa out
示例:
# 1 下载人类RefSeq基因注释文件
$ fetch_ucsc.py hg19 ref hg19_ref.txt
# 2 下载人类KnownGenes基因注释文件
$ fetch_ucsc.py hg19 kg hg19_kg.txt
# 3 下载人类Ensembl基因注释文件
$ fetch_ucsc.py hg19 ens hg19_ens.txt
# 4 下载人类参考基因组序列文件
$ fetch_ucsc.py hg19 fa hg19.fa
转换为 GTF 格式:
# 5 将基因注释文件转换为GTF格式(需要genePredToGtf)
$ cut -f2-11 hg19_ref.txt|genePredToGtf 文件标准输入 hg19_ref.gtf
# 或者
$ cut -f2-11 hg19_kg.txt|genePredToGtf 文件标准输入 hg19_kg.gtf
# 或者
$ cut -f2-11 hg19_ens.txt|genePredToGtf 文件标准输入 hg19_ens.gtf
注意:
1、hg38 和 mm10 只有 RefSeq 和 KnownGenes(GENCODE)基因注释,不支持 Ensembl 基因注释。
2、你可以在 hg19_ref.txt、hg19_kg.txt 或 hg19_ens.txt 中选择一个基因注释文件。此外,也可以将所有这些基因注释文件合并为 CIRCexplorer2 的单个文件。
$ cat hg19_ref.txt hg19_kg.txt hg19_ens.txt > hg19_ref_all.txt
3、CIRCexploer2 TopHat2/TopHat-Fusion pipeline 需要 Bowtie 和 Bowtie2 索引文件作为参考基因组。可以使用 bowtie-build 和 bowtie2-build 来索引相关基因组。或者可以使用 CIRCexplorer2 align 自动索引基因组文件。
# Bowtie 建索引基因组
$ bowtie-build hg19.fa bowtie1_index
# Bowtie2 建索引基因组
$ bowtie2-build hg19.fa bowtie2_index
4、如果分析小鼠的环状 RNA,应该下载小鼠相关文件(例如使用 mm10)。
#小鼠 RefSeq 基因注释文件
$ fetch_ucsc.py mm10 ref mm10_ref.txt
#鼠标 KnownGenes 基因注释文件
$ fetch_ucsc.py mm10 kg mm10_kg.txt
# 小鼠 Ensembl 基因注释文件
$ fetch_ucsc.py mm10 ens mm10_ens.txt
# 小鼠参考基因组序列文件
$ fetch_ucsc.py mm10 fa mm10.fa
6、pipeline 介绍:
CIRCexplorer2 包含用于环状 RNA 鉴定 和 表征 的两个主要过程:
1、环状 RNA 注释流程(annotating pipeline) 2、环状 RNA 表征流程(characterization pipeline)
annotating pipeline:
该 pipeline 源自之前的 Cell 论文中使用的 CIRCexplorer,并已被证明是最可靠的 circRNA 预测生物信息学工具之一(Hansen 等人,Nucleic Acids Res,2015 年)。这是一种从 反向拼接外显子 和 内含子套索中识别融合连接 reads 的综合策略,并通过精心设计的重新排列脚本对这些融合连接 reads 进行注释以纠正基因注释。在 CIRCexplorer2 中,我们扩展了这个 pipeline 以支持更多的比对软件(包括 STAR、segemehl 和 MapSplice)以满足不同的环状 RNA 比对和数据挖掘需求。
特点:
1、它依赖于现有的基因注释,并且只报告与现有基因注释具有完全相同边界的环状 RNA。该标准使该管道在环状 RNA 预测中具有较高的准确性。如果想识别边界不准确的环状 RNA,请参阅注释模块的更多信息,但它可能会导致许多误报。 2、它支持多种比对软件(TopHat2/TopHat-Fusion、STAR、segemehl 和 MapSplice)。 3、非常方便。只需要运行两个简单的命令即可完成此 pipeline,无需任何额外操作,CIRCexplorer2 将准备好在接下来的环状 RNA 分析中所需的一切。 4、对于一般的环状 RNA 鉴定来说已经足够了。
步骤:
1、Circular RNA fusion junction read alignment (Alignment) and parsing (Parsing)。
2、Circular RNA fusion junction read annotating and realignment (Annotating)。
结果:
环状 RNA 信息:circularRNA_known.txt
或 circularRNA_full.txt
。
Characterization pipeline:
该 pipeline 在通过整合环状 RNA 转录本的 从头组装
来全面系统地表征环状 RNA 的 可变反向剪接
和 选择性剪接
。
特点:
1、采用基于 Cufflinks 参考注释的转录本(RABT)组装方法,可以更好地识别环状 RNA 的新转录本。 2、除了具有注释外显子的环状 RNA 外显子外,它还可以识别出数百个不在线性 RNA 中表达的 新型环状 RNA 特异外显子。 3、它可以识别 两种类型的可变反向剪接事件 (5’可变反向剪接位点和 3’可变反向剪接位点)和 四种可变反向剪接事件 (盒外显子、内含子保留、5’可变剪接位点和 3’可变剪接位点)。
步骤:
1、Circular RNA fusion junction read alignment and parsing (Alignment)。
2、De novo assembly for circular RNA transcripts (Assembly)。
3、Characterization of alternative back-splicing and alternative splicing (Alternative Splicing)。
结果:
新的 circRNA 信息: denovo/novel_circ.txt
。注释的 circRNA 信息: denovo/annotated_circ.txt
。5' 反向可变剪接位点信息: abs/a5bs.txt
。3' 反向可变剪接位点信息: abs/a3bs.txt
。盒式外显子信息: as/all_exon_info.txt
。保留的内含子信息: as/all_intron_info.txt
。5'可变剪接位置信息: as/all_A5SS_info.txt
。3'可变剪接位置信息: as/all_A3SS_info.txt
。
下一节介绍具体用法。
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦.
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀ComplexHeatmap 之 Legends 续(二)
◀...